卡內基梅隆大學團隊開發出基於大語言模型的3D打印實時糾錯系統。該系統模仿交響樂團,由一個“指揮家”智能體協調四個專業智能體,自動檢測並修復打印過程中的微小參數波動導致的錯誤,解決了傳統開環系統易失敗的問題。
螞蟻集團旗下靈波科技開源高精度空間感知模型LingBot-Depth,基於奧比中光雙目3D相機數據,提升環境深度感知與三維空間理解能力,助力機器人、自動駕駛等智能終端實現更精準可靠的三維視覺,突破行業關鍵難題。
騰訊混元3D Studio升級至1.2版本並開放公測,顯著提升了3D資產生成的專業性與可控性。其組件生成能力PartGen升級至1.5版本,核心拆分精度提高至$1536^3$分辨率,更好地保留模型細節。新版本還引入了創新的“筆刷交互”功能,增強了用戶操作體驗。
Mugen3D模型利用3D高斯濺射技術,僅憑單張圖片即可生成高保真3D模型,大幅降低3D內容創作門檻。其核心突破在於對物體紋理、光影和材質的精準還原,爲AI與圖形學領域帶來新的發展範式。
專為建築可視化打造的AI渲染增強器,可提升3D渲染效果。
基於Google Genie 3技術,無需設計技能,即時將文本轉化為逼真3D交互世界。
UGCraft AI助Roblox UGC創作者快速設計併發布配飾與服裝,無需3D技能。
AI World Generator可秒級生成交互式3D世界,用於遊戲、研究和機器人領域。
Tencent
-
輸入tokens/百萬
輸出tokens/百萬
24
上下文長度
$0.8
$2
32
Chatglm
HIT-TMG
Uni-MoE 2.0-Omni 是荔枝科技(Lychee)推出的完全開源全模態模型,採用全模態 3D RoPE 和動態容量專家混合架構,顯著提升了以語言為中心的多模態理解、推理和生成能力。該版本集成了全模態理解以及音頻和圖像生成能力。
GatorBarbarian
TRELLIS Text XL是一個大型3D生成模型,是TRELLIS的文本條件版本,模型大小為XL。該模型基於論文《Structured 3D Latents for Scalable and Versatile 3D Generation》提出,能夠根據文本描述生成高質量的3D內容。
Ashmotv
animat3d_style_wan-lora是基於AI Toolkit by Ostris訓練的LoRA模型,專門用於文本到視頻生成,可為圖像生成帶來獨特的3D動畫風格效果。該模型基於Wan2.2-T2V-A14B基礎模型進行微調,支持多種主流AI平臺使用。
facebook
MapAnything是一個端到端訓練的Transformer模型,能夠以多種模態作為輸入,直接回歸場景的分解度量3D幾何結構。該模型支持超過12種不同的3D重建任務,包括多圖像SfM、多視圖立體視覺、單目度量深度估計等。
manycore-research
FLUX.1-Layout-ControlNet是SpatialGen框架的關鍵組件,是一個基於語義圖像條件化的ControlNet模型。它能夠根據文本描述生成2D圖像,同時嚴格遵循輸入語義圖像的佈局約束,主要用於3D室內場景合成。
yslan
STream3R是一種基於因果Transformer的可擴展序列3D重建模型,將點雲圖預測重新定義為僅解碼器的Transformer問題。它引入流式處理框架,利用因果注意力高效處理圖像序列,能夠很好地泛化到各種具有挑戰性的場景,包括傳統方法經常失效的動態場景。
nvidia
ESM-2是NVIDIA基於TransformerEngine優化的蛋白質語言模型,能夠從氨基酸序列預測蛋白質3D結構。該模型採用掩碼語言建模目標訓練,在NVIDIA GPU上具有更快的訓練和推理速度。
ilkerzgi
這是一個LoRA模型,可將普通圖像轉換為具有黑色背景和3D視角的金屬風格圖像。
lhjiang
AnySplat是一種先進的3D高斯散點渲染模型,能夠從不同視角的圖像高效生成高質量的3D場景。該模型具有快速推理能力和良好的泛化性能,為3D重建和渲染提供了創新的解決方案。
tencent
混元3D-2是一款支持圖像到3D、文本到3D轉換的工具,為3D內容生成提供了強大的解決方案。
shakamone
TRELLIS是一個基於圖像條件的大型3D生成模型,採用結構化3D潛變量實現可擴展與多功能的3D生成。
davidleiva4999
TRELLIS的文本條件版本,採用XL大模型規模,是一款強大的3D生成模型。
unsloth
InternVL3-78B-Instruct是一個先進的多模態大語言模型,在多模態感知、推理和語言處理等方面表現出色。該模型通過原生多模態預訓練方法,將視覺和語言學習整合到統一訓練階段,在工具使用、GUI代理、工業圖像分析、3D視覺感知等多個領域展現出卓越能力。
ImrozeAslamMalik
LGM是一個整合了多視角擴散模型的圖像轉3D工作流,能夠從單張圖像生成高質量3D內容。
ImrozeAslam
混元3D 2.0是一個先進的大規模3D合成系統,用於生成高分辨率帶紋理的3D資產。
InternVL3-14B-Instruct 是一個先進的多模態大語言模型(MLLM),展示了卓越的多模態感知和推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等多種任務。
InternVL3-2B-Instruct是先進的多模態大語言模型,相比前代有更出色的多模態感知和推理能力,擴展了工具使用、GUI代理、工業圖像分析、3D視覺感知等方面。採用原生多模態預訓練方法,將語言和視覺學習整合到單個預訓練階段。
InternVL3-78B是一款先進的多模態大語言模型,具備卓越的多模態感知和推理能力,在工具使用、GUI代理、工業圖像分析、3D視覺感知等領域表現出色,整體文本性能也十分優秀。
InternVL3-14B是一個先進的多模態大語言模型,在InternVL 2.5基礎上顯著提升了多模態感知和推理能力,並拓展了工具使用、GUI代理、工業圖像分析、3D視覺感知等領域的應用。
Surn
TRELLIS圖像條件版本是一個大型3D生成模型,能夠從圖像生成3D內容。
BlenderMCP通過MCP協議將Blender與Claude AI連接,實現AI輔助3D建模與場景控制
Blender MCP VXAI 是一個強大的集成工具,允許用戶通過自然語言控制 Blender,實現 3D 建模、動畫和場景的創建與修改。它簡化了複雜操作,並支持即時導出到項目中。
Tripo MCP Server是一個連接AI助手與Tripo AI的接口項目,支持通過自然語言生成3D資產並導入Blender。
FreeCAD MCP是一個通過Claude Desktop控制FreeCAD的插件,支持從2D圖紙創建3D模型等多種設計功能。
RhinoMCP是一個連接Rhino 3D建模軟件與AI代理的工具,通過Model Context Protocol實現雙向交互,支持3D對象操作、文檔檢查和腳本執行。
Tripo MCP Server是一個連接AI助手與Tripo AI的接口工具,支持通過自然語言生成3D資產並導入Blender。
Trellis MCP是一個連接AI助手與Trellis 3D生成模型的接口服務,支持通過自然語言快速生成3D資產並導入Blender。該項目基於開源模型,需自行部署API後端,具有快速、免費的特點,但存在穩定性風險。
HoudiniMCP是一個連接Houdini與Claude AI的第三方集成工具,通過MCP協議實現AI輔助3D創作。
MCP 3D打印機服務器是一個連接Claude與多種3D打印機管理系統的中間件,支持OctoPrint、Klipper、Duet等主流平臺,提供打印機控制、文件管理及高級STL模型處理功能。
MCP STL 3D浮雕生成器是一個將2D圖像轉換為3D浮雕模型的工具,支持控制模型尺寸、添加基座和深度反轉等功能,適合3D打印和渲染。
SketchupMCP通過模型上下文協議(MCP)將Sketchup與Claude AI連接,實現雙向通信和3D建模控制。
Blender與本地AI模型集成的開源項目,通過自然語言控制3D建模。
Unity AI ProBuilder是一個基於MCP協議的AI驅動3D建模工具,通過自然語言命令在Unity編輯器中創建和編輯可編輯網格,支持快速原型設計和程序化幾何生成。
SMMS項目構建了一個基於語義地圖的MCP服務器,提供3D實例對象管理功能,包括數據庫操作、RAG檢索和認知拓撲圖生成。
MCP 3D打印服務器是一個連接Claude與多種3D打印機管理系統的協議服務器,支持OctoPrint、Klipper等多種打印機API,提供文件管理、打印控制和高級STL模型處理功能。
Rhino MCP服務器項目,實現Claude AI與Rhino 3D的交互,支持3D對象的創建與操作
SketchupMCP是一個通過模型上下文協議(MCP)將Sketchup與Claude AI連接的整合工具,實現AI輔助3D建模和場景控制。
遊戲資產生成器利用AI模型和MCP協議,通過文本提示快速生成2D和3D遊戲資源。
GH_mcp_server是一個通過LLM直接與Rhino和Grasshopper交互的工具,支持分析3DM文件、3D建模及自動生成Grasshopper的GHPython代碼。
GH_mcp_server是一個通過LLMs直接與Rhino和Grasshopper交互的工具,支持分析3dm文件、3D建模及自動生成GHPython代碼。